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Abstract of FR2642882 

The invention concerns the analysis and 
synthesis of speech and more generally, speech 
coding and decoding. Since recognizing the 
speech of several different speakers is very 
difficult due to differences in pronunciation of the 
same phonemes by different speakers, the 
invention discloses a recognition system using 
portable cards, and, in particular, chip cards, in 
which the characteristic voice parameters of the 
card holder are recorded. These parameters are 
read by a reader (16), transmitted to a voice 
recognition machine which adapts its algorithms 
or processing circuits according to the content of 
the card in order to optimize recognition 
according to a given speaker. The recognition 
machine (10) can then operate, with the greatest 
reliability, a machine (12), according to a speech 
signal transmitted by a microphone (14). 
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(57) Lmvention concerne .'analyse et la synthese de la parole, 
et plus generalement mime le codage et le decodage de la 
parole. 

Etant donn6 que la reconnaissance de parole murulocuteurs 
est tres difficile du fait des differences de prononciation des 
memes phonemes par des locuteurs differents, rmvention pro- 
pose un systeme de reconnaissance utifisant des cartes porta- 
tives. et tout particulierement des cartes a puces, dans les- 
quefles on enregistre des parametres caractenstiques de la 
voix du locuteur titutatre de la carte. Ces parametres sort lus 
par un lecteur 16. transmis a un appareil de reconnaissance de 
parole 10 qui adapte ses algorithmes ou circuits de trartement 
en fonction du contenu de la carte pour optimiser la reconnais- 
sance en fonction d'un locuteur determine. L'appareil de recon- 
naissance 10 peut alors commander avec une fiabtTrte maxi- 
male une machine 12. en fonction (fun signal de parole 
transmis par un microphone 14. 
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4. 

APPAREIL DE TRAITEMENT DE LA PAROLE 



L 1 invention concerne l 1 analyse et la synthese de la 
parole, et plus g6n§ralement mime le codage et le 
d€codage de la parole. 

Les applications dans lesquelles on envisage de 
5 traiter 61ectroniguement les signaux de voix humaine 
sont de plus en plus nombreuses. II y a d'abord la 
reconnaissance et ia synthase de parole en vue de 
f aciliter la communication homme-machine qui se fait 
jusqu'i. maintenant principalement I travers un clavier 

10 de saisie. et un ecran de visualisation, ou & travers de 
boutons et manettes de ' commande. II y a aussi la 
reconnaissance de parole en vue de l 1 identification 
d'une personne par ses caract§ristiques vocales. Et il y 
a €galement des applications . dans lesquelles le 

15 traitement sert a comprimer les - informations 6mises 
oralement pour les transmettre h une plus grande vitesse 
ou avec une plus faible bande passante, etc. 

Mais le traitement de la parole est une operation 
tres difficile, h cause de la complexit§ des mecanismes 

20 physiologiques par lesquels la parole est produite et 
par lesquels elle est entendue et comprise. 

Le support de transmission de 1 1 information est une 
vibration acoustique de I* air. Cette vibration est 
constitute par une succession d'ondes acoustiques de 

25 formes complexes. Lorsqu f on enregistre ces formes 
d'onde, on constate qu ! il est pratiquement impossible, 
par simple observation visuelle, de faire un lien entre 
telle ou telle partie du diagramme et le son qui a §te 
prononce. 

30 

II en resulte qu'il est tr£s difficile d'etablir 
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des circuits electroniques ou programmes de traitement 
de donnees qui seraient capables de reconnaitre autre 
chose que des sons isoles tres simples. Les problemes 
sont Sgalement difficiles en synthese vocale si on veut 
5 reproduire des sons qui ressemblent suffisamment 
fidfclement au langage humain. 

Pour donner une id§e plus precise des difficultes 
rencdntrees, on va rappeler ci-dessous quelques notions 
relatives a 1 'analyse, la reconnaissance et la synthese 

10 de la parole. 

Les sons du langage peuvent Stre emis de plusieurs 
manidres : il y a d'abord une distinction entre les sons 
voises et les sons non voises. Les sons vois€s sont €mis 
a partir d'une vibration des cordes vocales et sont 

15 modules a travers le pharynx et la cavite buccale (et 
notamment par la langue et les l&vres) ; certains sons 
utilisent §galement la cavit§ nasale. Les sons non 
voises ne sont pas emis a partir des cordes vocales; ils 
sont directement produits a l f inter ieur de la cavite 

20 buccale. 

D 1 autre part, que ce soit parmi les sons vois£s ou 
les sons non voises, on peut faire la distinction entre 
les sons produits pair des turbulences d'air (dans une 
ouverture etroite) , et ceux qui correspondent plutot a 
25 un 6coulement regulier. Les consonnes sont en general 
produites par des turbulences. Les voyelles 
correspondent plutet a des Scoulements r€guliers. 

Les* consonnes fricatives (s f f, z, v) sont 
produites respectivement par un flux d'air dans 
30 l'intervalle §troit entre les dents (s, z) ou entre les 
lSvres (f, v). Les consonnes s et f ne sont pas voisees. 
Mais les consonnes z et v sont voisees. 

Les consonnes plosives font intervenir une 
occlusion complete du conduit vocal en un point ou un 
autre, suivie d'une liberation brusque de la pression 
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accumulSe dans le .conduit. Le point de fermeture 
ditennine le son produit. Ce son peut £tre, 1& encore, 
voise ou non voise. Les consonnes p (non voisee) et b 
(vois£e) correspondent a une fermeture des levres; t 
5 (non vois€e) et d (vois§e) correspondent & une occlusion 
par la langue dans la partie anterieure du palais. Les 
consonnes k (non voisie) et g (voisee) correspondent a 
une occlusion par la langue vers l'arriere du palais. 

On peut ainsi decrire comment sont produits la 

10 plupart des phonemes correspondant a une langue donnee. 
Le phonime est le plus petit §l§ment sonore ' permettant 
de distinguer un mot d'un autre ou plus precisSment de 
modifier sa signification. II n'y a guire que quelques 
dizaines de phonemes diff brents dans une langue donnee. 

15 On considers qu'il y en a une quarantaine dans la langue 
fran9aise. 

Mais c'est unchiffre th§orique. Dans la pratique 
on s'aper^oit que les phonemes sont prononc£s 
dif f feremment selon les phonemes qui les precedent ou les 

20 suivent. C'est le ph£nomene de coarticulation entre 
phonemes qui complique s§rieusement les problemes de 
reconnaissance ou synthese car il multiplie par 4 ou 5 
le nombre de phonemes pratiquement -emis. Tl est 
d'ailleurs souvent plus simple de fonder la 

25 reconnaissance de parole ou la synthese non pas sur les 
phonemes mais soit sur des "diphonimes 11 qui sont des 
couples de phonemes associes incluant la transition 
entre ces phonemes, soit sur des "diphones" qui sont des 
•segments sonores debutant au milieu d'un phoneme et 

30 s'arretant au milieu du phoneme suivant (incluant done 
la transition entre deux phonemes mais pas la totalite 
de chacun des deux phonemes) . 

L'oreille humaine les distingue tr&s bien les uns 
des autres, mais les formes d'onde acoustique qui les 
distinguent ne semblent pas etre suffisamment 
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caracteristiques pour qu*une machine puisse facilement 
les reconnaltre r surtout dans une parole en continu. 

Les ondes acoustiques correspondant aux voyelles 
ont un spectre de frequences plus simple et plus etroit 
5 que les consonnes. Les voyelles representent en effet 
plutot une partie stable du signal vocal, tandis que les 
consonnes representent plutot des transitions . Les 
plosives par exemple representent des transitions 
brutales, avec un spectre de frequences tres large 

10 durant la transition. 

C f est pourquoi on a essaye de proposer des methodes 
de traitement de la parole fondees essentiellement sur 
I 1 analyse frequentielle des signaux acoustiques. 

Par ces analyses frequentielles on arrive mieux a 

15 discerner des parametres correspondant aux differents 
phonemes ou diphones emis. 

A titre d 1 example, une methode d 1 analyse 
frequentielle qui a deja prouve son efficacite aussi 
bien en reconnaissance vocale qu'en synthese vocale est 

20 la methode des formants. On va rappeler en quelques 
paragraphes ce que sont les formants, pour mieux faire 
comprendre !• invention, bien que I 1 invention ne soit pas 
limitee aux systemes utilisant une analyse ou une 
synthese a formants. 

25 Les formants sont les frequences correspondant a 

des pics d'energie du signal vocal : on voit clairement 
que le spectre de frequences resultant de l 1 analyse du 
signal acoustique correspondant a une voyelle est un 
spectre comprenant des creux et des bosses. Les bosses 

30 sont les formants; et on distingue en general plusieurs 
formants success if s dans le spectre correspondant a un 
phoneme determine. 

Les formants sont reperes par leur position dans le 
spectre de frequences. On parlera de premier formant 
pour le pic de plus basse frequence, de deuxieme formant 
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pour le pic suivant, etc. 

Ces pics correspondent physiquement & des 
resonances de la cavite buccale, et la parole humaine 
consiste justement & moduler la forme de la cavite 
5 buccale de maniere a modifier les dif f erentes frequences 
de resonance de cette cavite. 

II y a un lien direct entre la prononciation d'un 
phoneme et la forme du conduit vocal . : I« emission du 
phoneme est en effet li§e a des positions bien precises 

10 des differents elements mobiles de la cavite buccale 
(position des levres, de la langue, du voile du palais, 
etc. ) ; et il y a un lien entre les frequences de f ormant 
et la forme du conduit vocal; on comprend done qu'il y a 
aussi un lien direct entre un phoneme emis et les 

15 frequences de f ormant detectees dans le spectre de 
frequences du signal acoustique correspondant a ce 
phoneme. 

L' analyse et la synthese a formants sont f ondes sur 
cette notion. Effectivement, on constate que la presence 

20 de certains formants est tout-a-fait caraeteristique de 
1* emission de tel ou tel phoneme. Pour les voyelles, 
dont le spectre de frequences est relativement stable, 
on peut tres bien caracteriser une voyelle determinee 
par la position (sur I 1 axe des frequences) des trois 

25 premiers formants, e'est-i-dire des trois premiers pics 
du spectre du signal acoustique correspondant. 

A titre indicatif, on peut donner l^xemple 
suivant: la voyelle A est un signal acoustique dont le 
premier formant est situe entre 500 et 800 hertz, le 

30 deuxieme est situe entre 1000 et 1600 hertz mais n'est 
pas ecarte du premier de plus .de 600 a 900 hertz, et le 
troisieme formant est situe entre 2300 et 3200 hertz. 

Un autre exemple : la voyelle I aurait un premier 
formant entre 200 et 400 hertz, un deuxieme formant 
situe entre 2100 et 2400 hertz, mais espace d ! au moins 
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2000 hertz du premier. Le troisieme formant est a une 
frequence plus elevie encore. 

Avec un vecteur mathimatique compose de trois 
nombres qui sont les friquences des trois premiers 
5 formants on peut asse2 bien caractiriser toutes les 
voyelles et cezrtaines consonnes. Pour d'autres consonnes 
l 1 utilisation des formants est plus malaisee, mais 
d'autres mithodes peuvent etre utilisies, et notamment 
une evaluation du sens et de la rapidite de variation 

10 des frequences de formant dans les diphones comportant 
une transition par consonne. 

Cependant, un probleme supplementaire vient de la 
diversite des prononciations des mimes phonemes par des 
personnes diffirentes. L'oreille humaine ritablit 

15 automat iquement la signification du . phoneme , meme 
prononci par plusieurs personnes differentes. Mais une 
machine de reconnaissance vocale confronts a plusieurs 
vecteurs de formants aura beaucoup de mal a reconnaltre 
ces dif f erents vecteurs comme reprisentant un seul et 

20 mime phoneme si les vecteurs sont assez dif f erents les 
uns des autres du fait qu'ils imanent de personnes 
differentes. C'est d'ailleurs d'autant plus vrai qu'on a 
dija envisage de rialiser des machines d* identification 
de personnes dont le fonctionnement repose sur -la 

25 reconnaissance vocale, ce qui montre que dans une 
certaine mesure il peut y avoir des differences tres 
significatives dans l 1 Emission des memes phonemes par 
des personnes differentes. 

A titre d'exemple, la figure 1 represente un 

30 tableau schimatique des zones de prononciation . de 
diffirentes voyelles phonitiques. Les lettres entre 
crochets reprisentent des phonimes usuels en fransais, 
selon le code de phonitique de l r Association 
Internationale de Phonitique. Le tableau est un 
diagramme freguentiel representant les zones de valeur 
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du premier formant (en ordonnee) et du deuxieme formant 
(en abscisse) . On voit notamment que certaines zones se 
recoupent, ce qui veut dire que le meme son ends par 
deux personnes differentes peut correspondre a deux 
5 phonemes de signification differentes * Et plus 
generalement., les zones sont assez proches les unes des 
autres de sorte qu'il peut etre difficile a une machine 
de reconnaitre les phonemes presents dans la parole 
humaine. 

10 Les machines de reconnaissance vocale proposees 

jusqu'3. maintenant sont habituellement capables de 
reconnaitre seulement un petit nombre de mots isoles, 
prononces par un locuteur bien d£termine qui a 
enregistre dans la machine les mots a reconnaitre (qu'il 

15 a prononc£ lui-meme) . 

On a propose de rendre ces machines capables de 
reconnaitre les memes mots, prononces par plusieurs 
locuteurs differents. Mais alors, le passage d'un 
locuteur & un autre necessite d'abord une phase 

20 d'apprentissage de la machine : le deuxieme locuteur 
doit prononcer devant la machine la succession des 
differents mots qu'elle doit pouvoir reconnaitre, de 
maniere que la machine enregistre en memoire la maniere 
dont ces mots sont prononces, et gu'elle puisse ensuite 

25 les reconnaitre . Cette phase d*apprentissage est tres 
lourde; d'autant plus lourde que la machine doit pouvoir 
reconnaitre plus de mots. Si elle doit reconnaitre 1000 
mots, il faudra les prononcer tous; il faudra m§me 
peut-etre les prononcer chacun plusieurs f ois pour 

30 etablir une prononciation moyenne (car la prononciation 
d'un mot par une personne n'est pas quelque chose de 
fige et invariable)* Pendant la phase d'apprentissage, 
la machine sera indisponible pour ex§cuter sa fonction 
de reconnaissance; l'operateur sera aussi contraint de 
reserver un temps pour cette operation. Mais cette 
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operation est a priori indispensable car la probability 
est tres faible pour que la machine reconnaisse d'une 
maniere f iable les mots prononces par un locuteur autre 
que celui qui a enregistre les mots de reference. 
5 ii est inutile de preciser que si la machine est 

destinee par exemple a une utilisation par le public 
dans un lieu public, il est hors de question de proceder 
a une phase d f apprentissage pour chaque utilisateur qui 
se presente devant la machine. On peut penser par 

10 exemple a une cabine telephonigue * dans laquelle la 
composition du numero appele est faite oralement. Pour . 
de telles machines, on est actuellement oblige de 
limit er au maximum le nombre de mots a reconnaitre, pour 
augmenter la certitude de reconnaitre le mot prononce 

15 quelle que soit la personne qui le prononce. 

La presente invention a entre autres pour but de 
proposer un moyen simple permettant de rendre plus 
facile 1' utilisation d«une machine de reconnaissance par 
plusieurs locuteurs differents, sans require 

20 excessivement les possibility de la machine. 

Un autre but de l l invention est de proposer un 
moyen simple permettant d'ameliorer la synthese vocale 
en adaptant aussi etroitement que possible la voix 
synthetisee a la voix d'un locuteur bien determine, de 

25 sorte que par exemple si la voix d'un locuteur est 
codee, puis transmise sur une ligne tilephonique, puis 
resynthetisee avant d'etre restituee a un auditeur, la 
voix synthetisee puisse se rapprocher aussi pres que 
possible de la voix du locuteur initial. 

30 Pour atteindre ces buts, la presente invention 

propose un systeme de traitement de parole comprenant un 
appareil de codage ou decodage de parole adapte a un 
codage ou un decodage multilocuteurs, caracterise en ce 
que des parametres specif iques d ! un locuteur determine 
sont contenus dans une carte portative personnelle que 
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le locuteur conserve avec soi, le systeme comportant un 
lecteur de carte adapts a lire le contenu de la carte et 
a communiquer ce contenu a l'appareil de codage ou 
decodage, pour l f adapter instantanement, sans phase 
d'apprentissage, a ce locuteur. 

On comprend qu'avec ce systeme, on peut aller 
jusqu'a installer dans des lieux publics- des machines 
complexes utilisant la reconnaissance ou la synthese de 
parole , et que toute personne possedant une carte 
personnelle contenant les parametres propres de sa voix, 
pourra communiquer avec cette machine ou k tr avers cette 
machine, alors qu'elle ne pourrait le faire autrement. 

La carte pourrait contenir sous forme de donn§es 
cod§es une prononciation d*un certain nombre de mots par 
le titulaire de la carte (autant de mots que la machine 
doit pouvoir reconnaltre ou synthetiser par exemple) . 
Mais il est plus avantageux que la carte contienne 
plutdt des parametres de la voix ind§pendamment . des mots 
a reconnaltre ou synthetiser, car cela eiargit les 
possibility de reconnaissance ou synthese. 

Les parametres enregistres dans la carte peuvent 
alors etre des signaux eiectriques codes representant 
les formes d'onde temporelle ou les spectres de 
frequence de phonemes ou diphonemes ou diphones 
prononces par le titulaire de la carte. Mais on 
pr€f§rera utiliser comme parametres des vecteurs 
correspondant & ces phonemes ou diphonemes ou diphones, 
par exemple des vecteurs de trois ou quatre formants; 
chaque vecteur de trois ou quatre formants comprendra 
done trois ou quatre valeurs de frequences (ou plus 
vraisemblablement trois ou quatre gammes de frequences) 
repr€sentant un phoneme ou diphoneme ou diphone 
determine. Ces vecteurs seront stockes dans la carte, et 
transferes £ la machine au moment del 1 utilisation, en 
remplacement des vecteurs que la machine aura pu 
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recevoir precedemment lors de l 1 utilisation par un autre 
locuteur disposant d'une autre carte personnelle. 

On comprendra que si les formants semblent etre les 
vecteurs les plus commodes pour representer les 
voyelles, d'autres parametres existent et peuvent etre 
stockes pour d'autres phonemes, diphonemes ou diphones. 
Notamment, les consonnes ou les diphones incluant des 
consonnes s 1 exprimeront plus facilement par des 
parametres relatifs a la maniere dont les formants 
varient: chute plus ou moins rapide du premier formant 
et simultanement montee plus ou moins rapide du 
deuxieme, etc. 

Des coefficients de fonctions de transfert 
echantillonnees (fonction de transfert en z) pourraient 
egalement etre stockes comme parametres de la voix dans 
une carte personnelle portative. 

La carte pourr t ait etre une carte a piste 
magnetique, ou optique; mais elle sera de preference une 
carte k puce incorporant une puce de circuit- integre 
avec notamment une memoire non volatile contenant les 
parametres personnels de la voix. La carte peut etre 
aussi un autre support d 1 information portable tel que 
par exemple : cartes magnetigues a haute densite de 
stockage, ' dont la surface magnetique couvre la total ite 
ou la quasi-totalite d«une des faces; memoire de 
stockage de type EPROM ou EEPROM ou RAM non-volatile 
stockee dans un boltier de forme tres compacte et 
facilement transportable; cles & puce n f ayant pas 
specialement la forme d'une carte plate, etc. 

D 1 autres caracteristiques et avantages de 
l 1 invention apparaitront a la lecture de la description 
qui suit et qui est faite en reference aux dessins 
annexes dans lesquels : 
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- la figure 1, d§jS d€crite, repr€sente un 
diagramme de position de divers phonemes dans I'espace 
des f ormants (deux premiers f ormants) ; 

- la figure 2 represente schematiquement une 
5 application de l 1 invention i la commande vocale d'une 

machine; 

- la figure 3 represente schematiquement une 
application de 1 1 invention aux communications 
t§l€phoniques. 

10 * 

Une premiere application de l 1 invention est la 
reconnaissance de la parole, telle qu J on peut l'utiliser 
par exemple pour la commande d'un robot, d«une machine 
industrielle, d'un vehicule, etc, ou f dans une 

15 application plus sophistiquee, pour une machine a dieter 
ou une machine & traduire. 

La figure 2 schematise cette application dans le 
cas de la commande d'un robot. Un appareil de 
reconnaissance 10 est connecte a un robot industriel 12 

20 pour lui fournir des ordres de commande de marche, 
d'arret, de rotation, etc. L ! appareil de reconnaissance 
est couple a un microphone 14 de sorte que les ordres de 
commande peuvent etre donn§s oralement sous la forme de 
mots simples tels que "marche", "stop", "droite", 

25 "gauche", etc. L' appareil est par ailleurs couple a un 
lecteur de carte S puces 16 dans "lequel on peut 
introduire une carte a puce 18 qui contient dans une 
m§moire non volatile (m§moire EPROM ou EEPROM) des 
donnees.personnalisees relatives a la voix d*un locuteur 

30 titulaire de cette carte. 

Lors du fonctionnement, -les donnies de la carte 
sont d'abord chargees dans 1" appareil de reconnaissance; 
ces donn^es servent k modifier soit des configurations 
de circuits electroniques dans l 1 appareil, soit des 
algorithmes de reconnaissance utilises dans 1* appareil. 
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Les configurations modifiees ou les algorithmes modifies 
sont tels que l'appareil soit alors adapte de maniere 
optimale a la reconnaissance des mots ou phrases 
prononces par le locuteur titulaire de la carte. 
5 Par exemple, les modifications d'algorithme peuvent 

consister en modifications des valeurs moyennes et 
valeurs limites des frequences de f ormants pour chaque 
phoneme ou diphonftme* ou diphone susceptible d'etre 
prononce; ou encore des modifications de coefficients de 

10 polyndmes dans des algorithmes de calcul fondes sur la 
transformee en z des signaux acoustiques echantillonnes. 
Des modifications de configurations de circuits 
electroniques pourraient par exemple consister en 
modifications de valeurs de capacites (par commutation 

15 d'interrupteurs) dans des filtres a capacites commutees 
utilises pour determiner des frequences de f ormants. 

Selon la sophistication de I'appareil de 
reconnaissance 10, on pourra reconnaltre des mots ou 
phrases plus ou moins complexes. Si l'appareil 10 est 

20 tres performant (et ses performances vis-a-vis de 
locuteurs multiples seront considerablement ameliorees 
par 1 ' invention) , on peut envisager que la machine 12 
commandee soit une machine de traitement de texte, voire 
meme une machine de traduction automatigue. Cela suppose 

25 bien entendu que l'appareil de reconnaissance soit 
capable de reconnaltre non pas seulement des mots isoles 
ma is des phrases continues. 

Pour le choix des parametres que l'on peut inscrire 
dans la carte pour representer de maniere personnalisee 

30 la voix du titulaire de la carte, on pourra utillser 
d'une maniere generale les theories de reconnaissance et 
synthese de la voix telles qu'elles ont ete formulees 
jusqu 1 ^ maintenant. On trouvera une indication des 
methodes mathematiques permettant de fa ire ces choix 
dans le traite de Rene Boite et Murat Kunt : "Traitement 
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de la parole" , complement au Traite d'Electricite, 
publii aux Presses Polytechnigues Romandes, ainsi que 
les ouvrages references dans la bibliographie de ce 
trait§. 

5 Une autre application de 1" invention . est 

representee a la figure 3. Dans cette^ application, on 
cherche k coder le signal de parole emis sur une ligne 
teiephonique, pour comprimer le signal et ainsi limiter 
le debit d 1 informations utile pour une communication. 

10 Pour cela, on code le signal re$u par le microphone du 
combine teiephonique; le codage est un codage phonetigue 
au lieu d'etre un codage numerigue des formes d'onde du 
signal de parole : on code la parole en la decomposant 
en phonemes ou diphones success if s; c'est done une 

1-5 operation de reconnaissance de parole. Puis on envoie 
sur la ligne teiephonique des vecteurs successifs de 
donnees, chaque vecteur comportant plusieurs donnees 
relatives au phoneme qui vient d'etre prononce dans le 
combine. A la reception, on reconvertit les vecteurs de 

20 donnees en phonemes; c*est une operation de synthese de 
parole. La compression realisee peut etre tr£s 
importante : on peut envisager de limiter a 2 kilobits 
par seconde la quantite de donnees necessaire pour 
transmettre une conversation normale. En effet, le 

25 nombre de phonemes emis ne depasse-pas une dizaine par 
seconde. On dispose done de 200 bits pour coder chaque 
phoneme ou diphone ainsi que la prosodie (e'est-a-dire 
la meiodie engendree par la variation de la frequence 
f onciamentale des cordes. vocaies au cours de la phrase) . 

30 Dans cette application, on utilisera selon 

!■ invention un premier codeur/decodeur 20 interpose 
entre un premier appareil teiephonique 22 et une ligne 
teiephonique numerique 24. Ce premier codeur a pour 
f onction de coder la parole emise et de decoder la 
parole regue. II est couple a un premier lecteur de 
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cartes a puces 26 dans leguel on pourra introduire une 
carte 28 comportant les donnees personnalisees sur la 
voix de la personne qui telephone. On utilisera aussi un 
deuxieme codeur/decodeur 30 semblable au premier, 
5 raccorde a 1' autre bout de la ligne 24, interpose entre 
la ligne et un deuxieme appareil telephonique 32. Le 
deuxieme codeur/decodeur est aussi couple a un deuxieme 
lecteur de cartes 36 dans lequel on peut inserer une 
carte 38 comportant les donnees personnalisees relatives 

10 a la voix du correspondant a l 1 autre bout de la ligne. 

Les codeur/decodeurs, qui sont en fait des 
appareils complets de reconnaissance et synthese vocale f 
re^oivent les donnees contenues dans les deux cartes, de 
sorte que la *partie codage est adaptee S la 

15 reconnaissance de la voix de la personne situee au meme 
bout de la ligne que le codeur/decodeur, alors que la 
partie decodage est adaptee & la synthese de la voix de - 
la personne situee a 1' autre bout de la ligne. 

On prevoit done en debut de conversation 

20 telephonique un protocole d'echanges de donnees pour 
envoyer dans les codeurs/ decodeur s les donnees qui 
conviennent. Puis la conversation peut avoir lieu : 
l'une des personnes parle; sa voix est convertie en 
phonemes cod€s, par le codeur qui a §t§ specialement 

25 adapte a la voix du locuteur; elle est envoyee sur la 
ligne; elle est re$ue par le decodeur a 1" autre bout de 
la ligne. Le decodeur a §te lui aussi adapte a la voix 
du m§me locuteur; il synthetisera done d«une maniere 
optimale la voix de ce locuteur avant de la transmettre 

30 a l f ecouteur du poste telephonique. De meme pour l 1 autre 
locuteur, codage et decodage . sdnt specialement adaptes a 
sa voix de sorte qu«& l 1 autre bout de la ligne le 
correspondant recevra une voix synthetisee d'une maniere 
personnalisee. 

Dans une autre application encore, on cherche & 



2642882 



interroger par telephone une base de donnees. 
L 1 interrogation est faite par la parole et non par 
1 1 intermedia ire d 4 un clavier- Un exemple est la 
reservation telephonique de transports aeriens. 
5 L'utilisateur dispose , comme . dans 1 •application 
precedente, d'un appareil telephonique auquel est 
associe un lecteur de carte; la carte contient les 
parametres de la voix de son titulaire. Les parametres 
peuvent etre utilises de deux manieres : d f une part ils 

10 peuvent etre envoyes sur la ligne a titre d 1 Elements 
d 1 identification d f un titulaire autorise; si les 
parametres ne sont pas ceux d f un titulaire autorise, la 
base de donnees n'est pas rendue accessible; d' autre 
part, apres que les parametres de la voix aient ete 

15 transmis vers la base de donnees, un systeme ' de 
reconnaissance de parole utilise ces parametres pour 
s f adapter au mieux a la voix de celui qui va parler sur 
la ligne telephonique. L'utilisateur peut alors parler; 
sa voix est transmise normalement . sur la ligne 

20 (contrairement a 1 1 application precedente ofi elle est 
codee en vue d'une reduction du d§bit) ; une analyse de 
parole est faite a l r autre bout de la ligne, adaptee a 
la voix du locuteur, pour determiner par machine le 
message transmis et instaurer le dialogue homme-machine 

25 via la ligne telephonique. 

Dans toutes les applications, on prevoira de 
preference que les parametres personnels de la voix, 
sont inscrits dans la carte d'un titulaire par une 
machine specialisee dont la fonction principale est de 

30 determiner et enregistrer ces parametres. Le titulaire 
de la carte devra a cet ef f et prononcer devant la 
machine un certain nombre de mots caracteristiques qui 
serviront & faire cette determination. 
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REVINDICATIONS 

1. Systeme de traitement de la parole, comprenant 
un appareil de codage ou decodage de parole adapte a un 
codage ou un decodage multilocuteurs , caracterise en ce 
que des parametres specif iques de la voix d'un locuteur 
determine sont contenus dans une carte portative 

5 personnelle que le locuteur conserve avec soi, le 
systeme comportant un lecteur de carte adapte a lire le 
contenu de la carte et a communiquer ce contenu a 
l 1 appareil de codage ou decodage pour 1' adapter 
instantanement, sans phase d f apprentissage, a ce 
10 locuteur. 

2. Systeme de traitement de parole selon la 
revendication 1, caracterise en ce que les parametres 
specifiques du locuteur comprennent des vecteurs de 
donnees acoustiques correspondant a des phonemes ou 

15 diphonemes ou diphones, tels qu'ils sont prononces par 
le locuteur titulaire de la carte. 

3. Systeme de traitement de parole selon la 
revendication 2, caracterise en ce que chaque vecteur 
est constitue par un ensemble de donnees acoustiques, 

20 parmi lesquelles on trouve des valeurs de frequence de 
formants correspondant a un phoneme ou diphoneme ou 
diphone tel que prononce par le locuteur titulaire de la 
carte. 

4. Systeme de traitement de parole selon I'une 
25 des revendications la 3, caracterise en ce que les 

parametres specifiques contenus dans la carte 
comprennent des donnees relatives aux variations de 
frequence de formants correspondant a des phonemes ou 
diphonemes ou diphones determines. 
30 5. Systeme de traitement de parole selon l f une 

des revendications la 4, caracterise en ce que les 
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parametres contenus dans la carte comprennent des 
coefficients de fonctions de transfert §chantillonnees 
(fonction de transfert en z) de signaux acoustiques 
correspondant a des phonemes ou diphonemes ou diphones 
5 prononces par le titulaire de la carte. 

6. Systeme de traitement de parole selon l ! une 
des revendications 1 a 5 f caracterise en ce que la carte 
est tone carte a piste magnetique, ou optique, ou de 
preference une carte a puce incorporant une puce de 

10 circuit- int^gre avec notamment une memoire non volatile 
contenant les parametres personnels de la voix. 

7. Systeme de traitement de parole selon l'une 
des revendications 1 a 5, caracterise* en ce que la carte 
est une carte magnetique a haute densite de stockage 

15 dont la surface magnetique couvre la totality ou la 
quasi totalite d'une face, ou une cle a circuit integre 
n«ayant pas specif iquement une forme de carte plate. 

8. Systeme de traitement de parole selon l'une 
des revendications 1 a 7, caracterise en ce qu'il 

20 comprend un appareil de codage et decodage phonetique de 
parole interpose entre un appareil telephonique et une 
ligne telephonique, et capable de transmettre 
successivement sur la ligne des vecteurs de donnees 
correspondant a une succession de phonlmes ou diphonemes 

25 ou diphones, efc un lecteur de carte, l 1 appareil de 
codage et decodage etant apte t adapter sa fonction de 
codage en fonction de parametres personnels de voix 
contenus dans une carte introduite dans le lecteur, et 
l f appareil etant apte par ailleurs § adapter sa fonction 

30 de decodage en fonction de parametres personnels de voix 
re<?us de la ligne telephoniques. 

9. Systeme de traitement de parole selon I'une 
des revendications It 7, caracterise en ce qu'il 
comporte un appareil telephonique couple a une ligne 
telephonique, et un lecteur de carte associe a 
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l'appareil, des moyens pour transmettre sur la ligne les 
parametres de la voix contenue dans la carte, et un 
systeme de reconnaissance de parole a l 1 autre bout de la 
ligne pour dans un premier temps recevoir de la ligne 
les dits parametres et dans un deuxieme temps recevoir 
un signal de parole en provenance de l»appareil 
tel6phonique, le syst£me de reconnaissance de parole 
etant apte a adapter son f onctionnement en f onction des 
parametres de voix regus. 
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